广义线性模型,英文名为Generalized Linear Model,简称 GLM。

之前,涉及到两种的两种模型:

  1. 线性拟合模型,假设了$P(y|x;\theta)$是高斯分布
  2. 二分类问题,假设了$P(y|x;\theta)$满足伯努利分布

但以上两者知识一种更广泛的,被称为『指数分布族』(The Exponential Family)的特例。

指数分布族

可以被表示为以上形式的分布,都是指数分布族的某个特定分布,给定$a, b, T$,就可以定义一个概率分布的集合,以$\eta$为参数,就可以得到不同的概率分布。

在广义线性模型中,会假设$\eta=\theta^Tx$,也就是$\eta$和特征$x$线性相关。

伯努利分布

首先,我们给出$y=1$的概率:

于是:

比较我们上面的概率形式和指数分布族的标准形式,可以得到:

这里的$\phi$一般会被称为正则响应函数(_canonic response function_):

相对的,正则关联函数(_canonic link function_)则是$g^{-1}$。

高斯分布

这里,出于简洁考虑,假设$\sigma=1$,经过一系列化简后,可以表示成:

那么,

多项式分布

建模

在二项分布中,$y\in \lbrace 1, 2 \rbrace$

而多项式分布,$y \in \lbrace 1,\cdots, k \rbrace$

一般会被用来进行邮件分类或者进行病情分类等等

我们假设

也即,邮件属于$i$类的概率是$\phi_i$,是关于特征$x$的一个函数。

那么,可以用$k$个参数来建模多项式分布

其中,$1 \lbrace \cdots \rbrace$的含义为,检验$\cdots$是否为真命题,若为真命题,则取 1,否则取 0。

因为所有概率和为 1,所以最后一个参数

经过化简,也可以表示成:

故而

根据$\eta$可得:

又因为:

故而:

所以:

上述函数,被称为『softmax』函数,这个函数的作用经常用于进行归一化。

经过上述步骤,假设函数可以被写成如下形式:

回归

在经过上述推导,当我们有一堆训练集($(x^{(1)}, y^{(1)}), \cdots, (x^{(m)}, y^{(m)})$)用于训练的时候,则可以进行极大似然估计: